13 Mars 2024
Ghislain Bidaut
IR, Responsable de la plateforme Cibi au Centre de Recherche en Cancérologie de Marseille
Contact ghislain.bidaut@inserm.fr
Site web http://cibi.marseille.inserm.fr
Qu’évoque pour vous le terme de “Bioinformatique” ?
La bio-informatique est constituée par l’ensemble des concepts et des techniques nécessaires à l’interprétation informatique de l’information biologique. Plusieurs champs d’application ou sous-disciplines de la bio-informatique se sont constitués (Wikipedia):
Le séquençage par Shotgun est la méthode mise au point par Sanger pour le séquençage de génomes de virus. La méthode est popularisée par Craig Venter.
Le NGS désigne l’ensemble des méthodes apparues en 2005 pour la production de millions de séquences (Le pyroséquençage, qui a permis de concevoir le séquenceur Roche 454).
Que sont pour vous les données OMIQUES ?
Génomique:
Transcriptomique:
Protéomique: Spectrométrie de masse
Applications principales
Interêt du NGS en Oncologie
Permet l’étude de mutations constitutionnelles et somatiques à faible pourcentages.
Possibilité de traiter des projets ciblés ou des panels plus larges, voire exome complet.
Un grand nombre de patients peuvent être analysés simultanément et rapidement.
L’analyse bioinformatique devient partie intégrante du processus de traitement.
Quelles seraient les étapes bioinformatque d’un pipeline de détection de variants ?
But: recherche de mutations dans des gènes d’interêt pour poser un diagnostique sur un patient.
Etapes de l’analyse bioinformatique:
Ils contiennent les reads: petite séquence d’un fragment d’ADN de longueurs plus ou mons fixe.
@HWI-ST865:166:D0C4KACXX:2:1101:1042:1954 1:Y:0: CNANAAATNAANNNNGNNNNNNNNNANNNNNAAANNNTNNNNNNNNNTNNTGNNNNTTGTTTNNTTGTGGGTTTCTCTGTCCCCN + ##################################################################################### @HWI-ST865:166:D0C4KACXX:2:1101:1241:1970 1:N:0: CCAGCGACACTTGCAGCTTAGGGGCAAGAGGCTCCCACAACACCCTGTGCGATCGGAAGAGCGGTTCAGCAGGGATGCCGCGGCC + GFFIGIIIFGEHHIJJJIIGGGHIIBD=BFG?EDECC@FGCHC?BCCBB)53(;;B;?8299?######################
Quelques définitions:
Exemple:
But: recherche de mutations dans des gènes d’interêt pour poser un diagnostique sur un patient.
Etapes de l’analyse bioinformatique:
Le compte-rendu est fait sur les gènes prescrits (dans le cadre du diagnostique)
L’utilisation du NGS en oncologie permet d’augmenter le débit d’analyse.
L’analyse bioinformatique fait partie intégrante du processus global de détection des variants.
A terme: disparition du séquençage ciblé type Sanger. Celui-ci est actuellement encore utilisé pour la confirmation des résultats.
Perspectives: vers la plateforme France Médecine Génomique 2025.
Voir le projet des 100,000 génomes du NHS.
Analyse de l’expression des gènes = le Transcriptome. C’est une grandeur dynamique.
Le NGS appliqué à l’analyse du transcriptome permet:
Mais…
Que seraient pour vous les étapes d’analyse bioinformatique en RNA-seq ?
L’analyse bioinformatique fait partie intégrante du processus de traitement.
Plusieurs questions possibles sur une analyse RNA-Seq:
L’analyse différentielle consiste à identifier les gènes dont l’expression est significativement différente entre deux conditions expérimentales.
Exemple:
L’objectif est d’établir quels sont les gènes différentiellement exprimés entre plusieurs conditions expérimentales, par exemple, un contrôle et un traitement. C’est une analyse supervisée.
Pour cela, un test statistique est utilisé. Rappel: un test statistique est la vérification d’une hypothèse nulle H0.
Les annotations du génome de référence sont disponibles sous forme de fichiers GFF/GTFou BED auprès de Ensembl (BioMart - https://www.ensembl.org/info/data/ftp/index.html) ou NCBI (https://www.ncbi.nlm.nih.gov/refseq/).
#!genome-build GRCh38.p13 #!genome-version GRCh38 #!genome-date 2013-12 #!genome-build-accession NCBI:GCA_000001405.28 #!genebuild-last-updated 2019-06 1 havana gene 11869 14409 . + . gene_id "ENSG00000223972"; gene_version "5"; gene_name "DDX11L1"; gene_source "havana"; gene_biotype "transcribed_unprocessed_pseudogene"; 1 havana transcript 11869 14409 . + . gene_id "ENSG00000223972"; gene_version "5"; transcript_id "ENST00000456328"; transcript_version "2"; gene_name "DDX11L1"; gene_source "havana"; gene_biotype "transcribed_unprocessed_pseudogene"; transcript_name "DDX11L1-202"; transcript_source "havana"; transcript_biotype "lncRNA"; tag "basic"; transcript_support_level "1";
Sous l’hypothèse que le nombre de reads venant d’un certain gène est proportionnel à l’abondance de son ARN dans la cellule, on veut compter les reads venant de chaque gène, transcrit ou exon du génome.
Il est possible de faire un script ‘maison’ mais il existe maintenant un grand nombre de programmes pour faire cette fonction, notamment featureCount de la suite logicielle SubRead.
Les localisations génomiques des transcripts sont données en entrée du programme de comptage, permettant d’assigner les comptages à chaque transcrit.
Problème: Le nombre de reads varie par échantillon. Il peut aussi y avoir des artéfact dus à la PCR. Il faut donc Normaliser pour rendre les échantillons comparables.
\(RPKM(G) = \frac{read(G)}{[\sum Read].longeur(G)}.{10}^{6}.{10}^{3}\)
Variante: FPKM pour le Paired-end.
Cette méthode est très utilisée MAIS:
Elle est inadaptée à la comparaison entre échantillons car on ne peut pas comparer des pourcentages!
C’est une des normalisations recommandées.
Au lieu de faire une mise à l’échelle propre à une librairie, TMM calcul un facteur de normalisation global en assumant que la majorité des gènes n’est pas DE et en ne tenant pas compte des valeurs extrêmes.
Le facteur est également fonction de la variance d’expression.
La Normalisaion type TMM ou autre n’est nécessaire que pour la visualisation ou l’exploration globale des données de comptage.
Les logiciels d’analyse différentielles (EdgeR et DESeq2) ont leur propre normalisation intégrée à la méthode et il n’y a pas besoin d’appliquer de normalisation aux comptages avant un appel à l’une de ces méthodes.
Comparaison de la taille de librairies
Comparaison des distributions avant normalisation TMM
Comparaison des distributions après normalisation TMM
Comparaison des distributions avant normalisation TMM
Comparaison des distributions après normalisation TMM
MA-Plot: log(Ratio) vs average
Comment visualiser les Profils d’expression ?
Comment détecter les gènes différentiellement exprimés ?
Un test statistique sur les profils d’expression permet de détecter les gènes différentiellement exprimés.
Comment quantifier l’enrichissement ?
Exemple de calcul d’enrichissement: Je travaille avec
Comment calculer l’enrichissement ?
\(E=\frac{100/300}{2000/30000} = 5\)
-> Il y a Enrichissement -> Validation statistique.
Elles sont basées sur deux composantes:
Une ontologie est l’ensemble structuré des termes et concepts représentant le sens d’un champ d’informations, que ce soit par les métadonnées d’un espace de noms, ou les éléments d’un domaine de connaissances.
Application au génome: Gene Ontology (Gene Ontology Consortiumhttp://www.amigo.org). 3 ontologies ont été définies.
Gène RPL35A
Annotations par un vocabulaire contrôlé.
Une catégorie de gènes regroupe n gènes sur le total de N présents sur la puce. La fréquence de départ de cette catégorie est F = n/N.
Ayant obtenu k gènes significativement exprimés ou sous-exprimés, dont p appartiennent à la catégorie C, la fréquence de la catégorie C dans ces gènes est f = k/p.
L’enrichissement est défini comme f/F.
Le test d’enrichissement doit répondre à la question: L’enrichissement est-il statistiquement significatif par rapport à un tirage au hasard? On le fait par Test hypergéométrique.
Il s’agit de dépôts de données liées à des publications répondant à des standards minimum de conservation et de reproducibilité de l’information, et contenant des données brutes de puces à ADN et de NGS.
L’information stockée permet la reproductibilité de l’expérience Leur usage est exigé pour publication (Numéro d’accession).
NCBI Gene Expression Omnibus http://www.ncbi.nlm.nih.gov/geo/
EBI ArrayExpress http://www.ebi.ac.uk/arrayexpress/
Dépôts spécialisés:
Téléchargement de génomes de références (souris, humain et autres): UCSC http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/hg19.2bit
Téléchargement d’annotations sous format GFF (pour IGV): GENCODE https://www.gencodegenes.org/human/
PubMed:
http://www.ncbi.nlm.nih.gov/pubmed
En analyse NGS, la bioinformatique et l’infrastructure bioinformatique ne sont que peu ou pas importantes face au séquençage lui-même: (Vrai/Faux)
Remettre dans l’ordre les phases d’analyses NGS suivantes:
Faire correspondre les logiciels suivants à ces différentes étapes:
Ghislain Bidaut
Responsable de la plateforme Cibi au Centre de Recherche en Cancérologie de Marseille
Ce(tte) œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution - Pas d'Utilisation Commerciale - Pas de Modification 4.0 International.
Copyright © Ghislain BIDAUT 2024